查看原文
其他

助力数字政府建设|《重要民生系统安全保障服务指南》发布

安恒信息 安恒信息资讯 2022-10-12


随着疫情防控进入常态化,健康码成为人们出行“必需品”,一旦出现问题,影响巨大。在当前抗击疫情的关键时刻,健康码失灵直接妨碍防疫工作的顺畅开展。各地政府都在竭力保障健康码以及类似的重要民生系统免遭崩溃,并做好一旦故障发生后的预案准备。


厘清业务需求

1

业务特性

健康码系统的业务特性和高考查分系统、12306订票系统极为相似,普通情况下访问量很小,但高峰时刻可能是普通情况的100倍以上。因此,架构之下需要系统具备较强弹性伸缩能力。此场景也是云计算的一项核心能力,目前已经十分成熟。保持系统稳定运行需要实现端到端分析,技术方案和安全运营需要一同考虑。


2

安全运行需求

系统安全运行设计需求分两部分。

需求1:安全运行需求。基于系统短时间高并发的特性,需要在防护体系设计上充分考虑日常情况与高峰情况

需求2:安全运营需求。对于民生系统平台可用性的监控及相关应急预案同样关键,保障用户能够及时发现故障并迅速响应处置,需要持续、专业的运营


3

安全运营设计

安全运营设计考虑端到端,针对重要民生系统做到发现系统瓶颈,给出整改建议。当然仅靠技术显然无法做到应对所有问题,需要及时根据以往经验做出预案,发生问题及时响应,这样才能将损失降到最低。不过,无论是技术还有运营,都有一定门槛,如何将安全运营服务快速向客户交付也是需要重点考虑的问题。基于上述分析,安恒信息面对重要系统保障服务整体设计思路分成四部分:性能测试、应急预案、应急响应、组织建设。


整体设计方向


1

性能测试

性能测试是对响应时间的评估、分析,结合应用的架构和实现细节找出问题,并最终确认问题得到解决的过程。主要组成部分:容量规划分析、全链路压测、性能监控、测试报告


● 容量规划分析

重要民生系统上线前已有对应容量和峰值规划,通过在生产环境性能测试可以准确获得系统的运行状况,发现问题。性能测试的最终目标是为生产环境容量规划提供可靠参考数据,使生产服务的可用性、扩展性和稳定性更高,让技术更好地服务业务,创造更多价值。

性能测试需要先对容量进行规划分析。所谓容量,即系统处于最大负载状态或某项指标达到所能接受的最大阈值下对请求的最大处理能力。容量规划的目的在于让每一个业务系统能够清晰应答:何时加机器、何时减机器?防疫健康码等场景需要准备多少机器,既能保障系统稳定性又能节约成本?

容量规划四步曲:业务流量预估、系统容量评估、容量精调、流量控制。(具体参见指南全文)


● 全链路压测

全链路压测是指基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对整个业务链路进行各种场景的测试验证,持续发现并进行瓶颈调优,保障系统稳定性的一个技术工程。


● 性能监控

业务性能监控:监控分析和调优是最核心也是占比最大的部分。性能分析的目的是找出系统性能存在的瓶颈与风险,性能调优就是尽可能用更少的资源提供更好的服务。其关键点就是生成负载,通过APM监控相关指标。

日志监控:日志的重要性不言而喻,基本上绝大多数的监控系统都是基于日志来进行聚合展示,排查问题。日志监控系统可以监控某些文件响应时间过长。通常情况下访问量激增,后台响应时间长,首先导致后台数据库锁死,然后造成入口并发激增,从而导致雪崩效应,发生灾难。

数据库性能监控:数据库监控在性能测试过程中,主要监控如下指标:CPU资源耗用、慢SQL等。数据库异常状态将被迅速发现和响应。业务并行访问压力较大,同时开发人员对于SQL开发不是特别规范,导致慢SQL较多,数据库审计可监测慢SQL等影响数据库性能的问题。


● 测试报告

从整个性能测试的生命周期来说,测试报告的产出意味着一次完整性能测试项目的结束。那么,怎样的测试报告,才是真正具有价值的呢?具体的结论需要根据具体的压测需求和场景来描述如:服务在水位为50%时最大TPS为200,业务预期指标为2000TPS,生产环境现有同等配置服务器8台。为满足本次业务增长需要,线上建议部署12台机器(10台正常提供服务,2台留作buffer)经过评估,当前性能表现未能满足预期性能指标。


2

应急预案

● 应急预案目标

应急预案主要包括两部分:首先是应对DDOS攻击、网页篡改等安全攻击;其次是应对平台瘫痪、平台过载等设备故障。建立健全的恢复应急工作机制,提高对突发事件的组织协调能力和应急处置能力,满足突发情况下通信保障和通信恢复工作的需要,最大程度地降低重大灾害、事件、故障等对通信业务的损害。

 

● 故障等级响应标准


(点击图片放大)

● 常见事件应急预案

(点击图片放大)



3

应急响应

各地爆发新冠疫情,健康码平台访问量陡增,峰值是之前的三倍以上,对健康码平台及配套防护能力均带来巨大的性能考验。在此情况下如何进行应急响应需要重点考虑。记住应急响应原则这十六个字:及时通报,迅速处置,降低影响,尽快恢复


● 故障发现流程

7*24小时运维值班机制,责任到人。且根据故障的等级进行不同方式的告警(电话、短信、钉钉等),第一时间发现告警,每日有质量监督团队负责整体运维工作的监控响应质量。


● 故障处置流程

有效的监控发现故障后,7*24小时运维团队和7*24小时运营团队有效配合,同时服务质量团队每日复盘服务质量,有效提升服务的及时性和满意度。运维在故障发现后第一时间响应,不影响生产系统服务正常运行的资源进行独立处理。如影响到正常服务,如服务IP不可用、节点网络异常、节点处理异常等,第一时间同步7*24小时运营人员。



4

组织建设

安全运营的开展需要安全运营中心,SANS对安全运营中心的定义:安全运营中心是人、流程和技术的结合,它通过主动的设计和配置、持续的系统状态监测、检测意外动作和非预期状态去保护组织的信息系统,力图尽可能地降低不良影响造成的伤害。

运营团队组建模式支持三种交付和服务方式:本地模式、云上云下联动、云端模式。(具体参见指南全文)


● 本地运维能力建设

安恒具备丰富的运营运维经验,可赋能客户构建组织所需的流程和技术。


● 托管式安全运营服务(MSS)

安恒信息托管式安全运营服务(Managed Security Service,简称:MSS)以用户安全的全生命周期需求为导向,参考IPDRO框架,综合安恒信息安全运营中心(以下简称“安全运营中心”)的安全运营梯队、标准化运营流程、安全运营平台/工具,通过暴露面监测、资产管理、威胁狩猎、应急响应等服务子项保障业务安全。服务过程中运营服务专家将主动协助用户对风险管理控制,对事件应急闭环处置,构建7*24小时有效、主动、闭环的安全运营体系。


托管式安全运营服务前后对比

(点击图片放大)


安全托管服务是原有安全运维基础上的有力补充,其价值体现为:1)低成本共享高阶专家安全运营服务;2)托管式安全运营服务,专注核心业务发展。



成功案例

2021年,某市局部爆发新冠疫情,健康码平台访问量陡增,峰值是之前的三倍以上,对健康码平台及配套防护能力均带来巨大的性能考验。基于安恒信息玄武盾云防护平台的技术特性,在健康码安全防护上采用云端节点模式,初期采用3台引擎承载服务,疫情发生后快速扩容至4台防护引擎,稳定承载业务。(具体运维方式参见指南全文)


 


获取指南全文或想进一步咨询

扫描下方二维码留下信息

我们的专家第一时间与您沟通交流



安恒托管式安全运营服务,为包括会议网络安保在内的重大活动提供有力的7*24小时支持。目前安恒信息承担了一些城市健康码、市民APP的web防护工作,过程中积累了不少宝贵的技术和运营经验。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存